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摘要 : 目前 的 机 器 翻 
维吾尔 语 )。 在 本 文中 ,我 们 通过 


译 模型 都 是 针对 形态 变化 简 
区 别 对 待 形态 丰富 语言 中 的 词 二 与 词 级 , 提出 了 一 种 新 型 的 而 
为 基本 翻译 单元 以 组 解数 
通过 计算 竺 翻译 片段 的 记 


语言 的 翻译 规则 选择 方法 。 我 们 用 词 二 人 
译 规则 上 还 附着 一 个 词 绥 分 布 。 在 翻译 时 ， 


来 选择 更 合适 的 翻译 规则 。 从 三 种 形态 
表明 ， 该 方法 显著 改善 了 翻译 质量 。 


形态 丰富 语言 


关键 词 : 机 器 翻 让 


^x TB. 


富 语言 (维吾尔 语 、 


词 级 分 布 相似 度 动态 特征 


1 引言 
形态 丰富 语言 是 指 词 的 形态 变化 比 


的 语言 (如 英语 ) 设计 的 , 不 太 适 合 于 形态 丰富 语言 (如 


向 形态 丰富 
稀 琉 问题 ， 此 外 ， 每 条 词 干 粒 度 的 翻 
级 分 布 与 翻译 规则 词 级 分 布 的 相似 度 ， 
哈萨克 语 、 柯 尔 克 玖 语 ) 到 汉语 的 翻译 实验 


表 1， 形 态 变 化 类 型 示例 


较 复 杂 、 丰 富 的 一 类 语言 。 从 形态 学 角 
度 来 说 ， 语 言 可 以 分 为 孤立 语 、 届 折 语 、| 交代 类 型 m 
黏着 语 和 多 式 综合 语 。 实 际 上 ， 除 了 到 a a 
立 语 和 少数 届 折 语 ， 绝 大 部 分 语言 都 属 届 折 变化 kitab ( 书 ) : kitab+ing (你 的 书 ) 
于 形态 丰富 语言 。 我 国 少数 民族 语言 EBA eh 
的 维吾尔 语 、 蒙 古语 等 ， 以 及 我 国 周边 | —app müngentoqu'y'màn RERA) 
绝 大 部 分 国家 的 官方 语言 都 属于 此 类 。 sän gezit oqu+y+sän (你 读 报 纸 ) 
| mom : PE qar (5), leyle (4£) : qarleylesi (F Et) 

人 态 E 生态 是 形 态 复合 变化 tax( 石 头 ), paqa (青蛙 ) : taxpaqa (乌龟 ) 
变化 复杂 。 下 面 以 维吾尔 语 为 例 ， 米 说 mektep (学 校 ) : mektipim (我 的 学 校 ) 
明 这 类 语言 的 形态 变化 特点 。 表 1 列举 | 语音 和 谐 
了 形态 丰富 语言 中 常见 的 形态 变化 方 chiraq (台灯 ) : chirqing (你 的 台灯 ) 
式 。 届 折 变 化 指 的 是 通过 在 词 干 上 加 接 词 级 ， 导 致 其 语法 功能 改变 , 同时 也 改变 了 单词 的 拼 
写 。 如 在 名 词 doppa( 帽 子 ) 后 级 接 第 三 人 称 单数 后 级 “si”， 就 变 成 了 doppasi( 他 的 帽子 )。 
一 致 性 指 的 是 句子 或 短语 的 不 同 部 分 存在 对 应 关系 。 为 了 与 相应 的 语法 关系 一 致 ， 需 要 改变 


词 形 以 保持 一 致 性 。 当 表达 “我 读 报纸 ” 


时 ， 需 要 在 动词 oqqu〈 读 ) 的 后 面 加 上 表示 


第 


PE] 


^ 


称 单 数 的 词 级 “min”， 以 保持 一 致 性 。 此 外 ， 还 有 复合 变化 。 两 个 词 连 接 在 一 起 可 以 生成 
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能 会 导致 一 个 词 干 生成 成 百 


ERE ES 


很 早 就 展开 了 机 器 翻译 方面 的 
丰富 语言 的 研究 较 少 。 在 涉及 形态 丰富 语言 到 汉语 翻译 的 研究 中 , 更 多 的 是 沿用 之 前 在 英语 


表达 不 同意 思 的 新 词 。 如 名 词 tax Ak) M paqa (青蛙 ) 复合 构成 词 taxpaqa， 表 示 的 意思 
G^. 语音 和 谐 是 表 音 文字 中 常见 的 现象 。 不 同 的 音节 组 合 在 一 起 时 ， 部 分 字母 需要 
的 变化 ( 增 音 、 脱 落 、 弱 化 等 ;， 以 符合 发 音 规律 。 这 一 系列 丰富 的 形态 变化 方式 ， 
上 千 种 新 的 词 形 。 如 果 
严重 的 数据 稀 玻 问题 。 这 对 传统 的 统计 机 器 翻译 模型 


将 每 一 个 词 形 都 单独 建 模 成 词 , 会 导致 
是 一 个 巨大 的 挑战 。 


究 , 但 


' 为 了 书写 和 阅读 上 的 方便 ， 本 文 一 律 使 
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主要 是 围绕 英语 等 语言 进行 , 针对 形态 


] 拉 丁字 母 来 表示 形态 丰富 语言 。 


面向 形态 丰富 语言 的 翻译 规则 选择 方法 


等 语言 的 翻译 上 表现 良好 的 方法 。 但 由 于 形态 丰富 语言 自身 的 特点 ,翻译 效果 并 不 尽 如 和 人意。 
此 外 , 目前 最 为 成 功 的 统计 机 器 翻译 方法 需要 大 规模 的 双语 平行 语料库 作为 训练 语 料 ， 而 对 
于 形态 丰富 语言 和 汉语 间 的 翻译 来 说 , 由 于 缺乏 大 规模 的 双语 平行 语 料 资源 , 单纯 的 统计 方 
去 可 能 很 难 取得 理想 的 效果 。 另 一 方面 , 大 部 分 形态 丰富 语言 的 已 有 的 语言 处 理 基础 相对 注 
弱 ， 研 究 工 作 较 少 ， 缺 乏 实用 的 词法 分 析 〈 也 称 为 形态 分 析 )、 句 法 分 析 等 工具 ， 用 于 词法 
分 析 和 句法 分 析 的 标注 语料库 也 十 分 有 限 。 


我 国 是 一 个 拥有 56 个 民族 的 多 元 文化 共存 的 国家 。 除 汉族 以 外 , 少数 民族 中 的 维吾尔 、 
蒙古 、 哈 萨 克 等 民族 也 都 有 自己 的 文字 ， 并 在 本 民族 广泛 使 用 。 其 中 维吾尔 语 、 蒙 古语 、 哈 
萨 克 语 等 都 属于 形态 丰富 语言 。 在 中 国 周边 的 21 个 国家 中 ， 大 部 分 国家 的 官方 语言 形态 变 
化 都 比较 丰富 ， 如 俄语 、 日 语 、 朝 鲜 语 、 印 尼 语 、 马 来 语 、 印 地 语 《〈 其 中 俄语 、 朝 鲜 语 同时 
也 是 我 国 的 少数 民族 语言 ) 等 。 在 我 国 的 21 个 邻 国 中 ， 有 16 个 国家 全 部 使 用 或 部 分 使 用 形 
态 丰富 语言 作为 官方 语言 ， 比 例 高 达 76%。 因 此 ， 研 究 形态 丰富 语言 到 汉语 的 翻译 有 其 现 
实意 义 。 通 过 研究 形态 丰富 语言 到 汉语 之 间 的 机 器 翻译 ， 可 以 促进 区 域 间 的 多 元 文化 交流 ， 
加 强 经 济 、 文 化 、 教 育 等 多 个 领域 的 合作 。 


在 接 下 来 的 章节 中 ， 我 们 首先 描述 形态 丰富 语言 翻译 的 国内 外 研究 现状 (82); 然后 其 
体 介 绍 基 于 词 级 消 歧 的 翻译 规则 选择 的 方法 (8§3)。 在 模型 介绍 完毕 之 后 ，84 详细 描述 和 分 
析 了 实验 结果 ， 最 后 给 出 总 结 和 展望 〈85 )。 


2 ”国内 外 研究 现状 


在 大 多 数 自然 语言 处 理 任务 中 ,， 词 都 作为 知识 表示 的 原子 单元 。 在 统计 机 器 翻译 中 , 也 
将 词 看 作 是 原子 翻译 单元 ， 而 不 考虑 词 内 部 的 形态 构成 。 从 起 始 的 基于 词 的 翻译 模型 中， 到 
之 后 改进 的 短语 模型 器、 层次 短语 模型 名 以 及 句法 模型 上 59， 都 保留 了 这 种 假定 。 在 存在 较 大 
双语 语料库 的 前 提 下 , 这 些 改 进 模型 在 翻译 孤立 语 ( 如 汉语 ) 和 形态 变化 不 太 丰 富 的 语言 (如 
英语 ) 时 ， 效 果 很 不 错 。 但 对 形态 变化 丰富 的 语言 来 说 ， 一 个 词 干 可 以 绥 接 多 个 词 级 〈 前 绥 
或 者 后 缀 )， 这 将 会 生成 成 百 上 千 种 新 的 词 形 〈surface form)。 如 果 将 词 干 相同 的 每 个 词 形 
都 单独 建 模 成 词 ， 数 据 稀 琉 现象 将 会 非常 严重 。 如 蒙古 语 动 词 词根 “UILED”( 做 )， 理论 上 
至 少 有 一 千 七 百 多 种 变化 形式 中 。 


形态 丰富 语言 翻译 有 三 种 不 同 的 翻译 粒度 。 一 种 是 词 (word)， 即 使 词 干 相 同 的 词 形 ， 
也 单独 建 模 成 词 。 使 用 词 粒 度 翻译 ,可 以 抽取 更 准确 的 翻译 规则 。 但 在 语 料 规模 不 大 的 前 提 
下 ， 数 据 稀 朴 问题 将 严重 影响 对 齐 和 翻译 质量 。 另 外 一 种 是 词 干 〈stem)， 词 干 是 词 除去 构 
形 词 绥 的 部 分 ,表达 了 词 的 基本 意义 。 词 干 粒 度 的 翻译 规则 有 柳 盖 率 更 大 ， 但 毕竟 丢弃 了 一 些 
有 用 的 词组 ， 规 则 会 存在 卜 义 问题 。 最 后 一 种 粒度 是 词素 “morpheme)， 词 素 是 构 词 的 最 小 
有 意义 单位 。 将 构成 词 的 每 个 词素 都 作为 单独 的 翻译 单元 ， 构 成 句子 的 元 素 个 数 将 会 增加 ， 
给 词语 对 齐 和 翻译 解码 带 来 负担 。 


学 术 界 很 早 就 展开 了 形态 丰富 语言 翻译 〈 涉 及 的 语言 有 德语 、 西 班 牙 语 、 阿 拉 伯 语 、 印 
地 语 、 捷 克 语 、 芬 兰 语 等 ) 的 相关 研究 。 形 态 丰 富 语言 翻译 的 相关 研究 可 以 分 为 三 类。 


第 一 类 是 针对 数据 稀疏 的 问题 , 通过 形态 分 析 ， 对 形态 丰富 语言 进行 预 处 理 ， 以 提高 翻 
译 质量 。 戈 德 华 特 〈Goldwater) 和 麦克 洛斯 基 〈McClosky) 时 尝试 多 种 词素 组 合 策略 来 表 
示 捷 克 语 ， 改 善 了 捷克 语 到 英语 的 翻译 质量 ， 波 波 维 奇 (Popovic) WA (Ney) 中 通过 将 
西班牙 语种 的 形容 词 用 其 词根 替换 , 将 所 有 塞 维 利 亚 语 的 单词 用 词根 替换 , 在 语 料 受 限 的 情 
况 下 , 使 西班牙 语 到 英语 、 塞尔维亚 语 到 英语 的 翻译 质量 有 了 明显 的 提升 。 哈巴 什 (Habash) 
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和 了 萨 达 特 CSadat) 5 在 阿拉 伯 语 到 英语 的 翻译 中 ， 在 预 处 理 中 使 用 了 不 同 的 形态 分 离 策略 。 
实验 表明 ， 形 态 分 离 并 不 是 分 得 越 细 越 好 ， 需 要 根据 实验 来 确定 一 个 合适 的 翻译 粒度 。 李 
(Lee) 5 引入 双语 信息 ， 选 择 合适 的 粒度 来 表示 输入 ， 平 衡 两 种 语言 间 的 词 形变 化 差异 问 
题 ， 杨 (Yang) 和 基 尔 霍 夫 (Kirchhof) 052 的 工作 中 ， 当 遇 到 未 登录 词 (Out Of Vocabulary, 
简称 OOV) 时 , 将 其 退化 到 词 干 进行 翻译 , 有 一 些 研究 还 针对 复合 变化 , 通过 分 解 复合 词 ” 
来 改善 翻译 ， 还 有 一 部 分 相关 工作 就 是 扩展 输入 信息 ， 如 使 用 词 图 结构 〈lattice) U^, rg 


(paraphrase) 0 等 进行 容错 翻译 。 


另外 一 类 是 充分 利用 形态 和 人 句法 信息 , 联合 多 种 要 素来 指导 翻译 。 代表 性 的 是 开源 翻译 
系统 Moses 中 的 基于 要 素 (factor) 的 模型 4 。 该 模型 在 生成 目标 译文 的 同时 生成 相应 的 词 
性 ， 词 形变 化 等 信息 ， 然 后 利用 高 阶 的 词性 N-gram 模型 “以 及 词 形 的 因子 化 N-gram 模型 优 
化 目标 词 的 选择 。 词 性 (POS) 标注 、 格 (case)、 其 至 超级 标注 (super tag) 02， 都 可 以 当 
作 要 素 加 入 到 模型 中 ， 以 提高 翻译 效果 。 但 对 绝 大 部 分 形态 丰富 语言 而 言 ， 高 质量 的 处 理工 
《如 词性 标注 工具 、CCG 句法 分 析 工 具 等 ) 目前 都 还 无 法 获得 。 还 有 一 部 分 工作 更 进 
步 通 过 句法 分 析 ， 对 源 语言 (形态 丰富 语言 ) 进行 预 调 序 ， 让 其 词 序 更 符合 目标 语言 ， 代 表 
性 工作 有 引文 [18][19] 等 .此 外 , 为 了 克服 语言 间 的 词 形 变化 差异 现象 , HJ Fr HR V CYeniterzi? 
和 奥 夫 拉 泽 尔 COflazer) "尝试 通过 对 英语 的 句法 分 析 ， 重 组 英语 端 ， 让 其 更 类 似 土耳其 
语 ， 以 完成 英语 到 土耳其 语 的 翻译 。 拉 曼 纳 森 (Ramanathan) 等 人 深入 挖掘 英语 端的 相 
应 知识 ， 并 将 其 映射 至 印 地 语 端 ,来 改善 英语 到 印 地 语 的 翻译 。 这 类 方法 可 以 很 大 地 改善 翻 
译 效果 ， 但 前 提 是 必须 要 有 相应 的 句法 分 析 工 具 可 供 使 用 。 


第 三 类 研究 则 力图 克服 多 数 形态 丰富 语言 双语 平行 语 料 资 源 医 乏 带 来 的 困难 ,国际 上 常 
见 的 做 法 是 利用 相似 语言 的 资源 ， 或 者 使 用 桥接 语言 (pivot language〉 来 进行 翻译 * 3。 
但 对 大 部 分 形态 丰富 语言 而 言 ,这 类 资源 也 同样 非常 缺乏 。 因 此 ,借鉴 相似 语言 资源 和 采用 
桥接 语言 的 做 法 也 不 太 适 用 。 


总 的 来 说 ， 目 前 形态 丰富 语言 翻译 的 研究 工作 ， 主 要 面向 的 是 资源 不 太 匮 乏 的 语言 ， 借 
助 一 些 语言 处 理工 具 ， 像 词法 和 句法 分 析 工 具 等 来 改善 翻译 效果 。 但 实际 上 ， 绝 大 部 分 形态 
丰富 语言 的 双语 资源 都 有 限 ， 而 且 缺 乏 相 应 语言 处 理工 具 。 


3 ”基于 词缀 消 歧 的 翻译 规则 选择 方法 


词 级 ， 尤 其 是 构 形 词 级 (inflectional affix)， 表 达 了 所 属 词 的 语法 意义 ， 如 人 称 、 时 态 、 
数 的 变化 以 及 格 变化 等 ,这些 对 于 准确 地 描述 翻译 规则 具有 重要 的 作用 。 因 此 ,我 们 在 抽取 
词 干 粒度 的 翻译 规则 的 时 候 ， 同 时 保留 相应 的 词缀 信息 。 


3.1 翻译 规则 表示 


图 1 B) 中 给 出 了 两 条 维 寿 尔 语 到 汉语 翻译 规则 示例 。 翻 译 规则 实例 (1) (3) 相同 ， 
表示 从 不 同 的 双语 句 对 中 抽取 出 相同 的 规则 实例 。 其 中 词 级 分 布 使 用 经 典 的 向 量 空间 模型 
(Vector Space Model， 简 称 VSM) 来 表示 。 从 图 中 我 们 可 以 看 到 ， 尺 管 这 两 条 翻译 规则 的 
源 端 是 一 样 的 ， 但 它们 的 词缀 分 布 情况 却 差别 很 大 。 第 一 条 翻译 规则 中 的 后 级 “gha” 是 维 
语 中 的 向 格 ， 表 示 所 属 关 系 ， 类 似 于 英语 中 的 介词 “of” 第 二 条 翻译 规则 中 的 后 级 “da” 
是 时 位 格 ， 表示 的 是 位 置信 息 。 这 两 个 词 级 的 区 别 也 直接 反映 在 目标 短语 上 。 因 此 ， 当 待 翻 


zí 


?大 词汇 连续 语音 识别 中 常用 的 一 种 语言 模型 
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译 的 片断 为 “zunyi/STM yihin/STM+i/SUF+da/SUF/+...” 时， 在 源 端 词 干 序列 都 匹配 上 的 前 
提 下 , 我 们 倾向 于 模型 选择 第 二 条 翻译 规则 。 我 们 可 以 通过 计算 竺 翻译 片断 和 候选 规则 的 词 
级 分 布 的 相似 度 来 辟 励 选择 更 合适 的 目标 规则 。 


(A) 翻 译 规 则 实例 


zunyi yighin| | | 遵义 会 议 的 |||i gha 


Zunyi E 
/ 词 干 


zunyiyighin||| 在 遵义 会 议 上 |||i da 


zunyi " yighin 
/ 词 干 | [HF 


zunyiyighin| | | 遵义 会 议 &9| | |i gha 


zunyi 加 
/ 词 干 


CoD (2 (3) 
原文 : zunyi yighin*i*gha 原文 : zunyi yighin+i+da 原文 : zunyi yighin*i*gha 
意思 : 遵义 会 议 的 意思 : 在 遵义 会 议 上 意思 : 遵义 会 议 的 


(6) 带 有 词 绥 分 布 的 翻译 规则 
- zunyi yighin| | | 遵义 会 议 的 ||1i:0 gha:0.09 — zunyi yighin| | | 在 遵义 iX. .E| | [i:0 da:0. 24 
图 1. 词缀 分 布 抽取 和 翻译 规则 表示 
3.2 规则 抽取 与 参数 估计 
翻译 规则 抽取 的 流程 如 下 : 


m Ll. 源 语言 端 表 示 为 词 干 (维吾尔 语 )， 目 标语 言 端 仍 为 单词 (汉语 )。 然 后 进行 对 齐 和 
e 规则 抽取 ， 最 终 获 得 的 是 词 干 - 词 粒度 的 翻译 规则 和 对 应 的 概率 得 分 。 


2. 源 语言 端 表示 为 词 干 + 词 级 组 合 的 形式 ， 目 标语 言 端 为 单词 。 使 用 步骤 1 中 词 二 
词 粒度 的 对 齐 结果 前 文中 提 到 维吾尔 语 中 每 个 单词 只 包含 一 个 词 干 )， 进 行 词 干 
粒度 的 规则 抽取 ， 同 时 将 相应 的 词 绥 信 息 保留 在 规则 实例 中 。 


一 3. 在 步骤 2 抽取 的 规则 实例 的 基础 上 , 利用 向 量 空间 模型 对 词缀 分 布 的 参数 进行 估计 
C 《详细 见 下 文 )， 以 获得 每 条 规则 的 词缀 分 布 情况 。 


4. 将 步 又 1 和 步骤 3 的 翻译 规则 进行 合并 , 主要 是 将 词缀 分 布 加 入 到 原始 的 翻译 规则 
表 中 ， 从 而 得 到 最 终 的 翻译 规则 。 


如 前 所 述 ， 词缀 分 布 表 示 为 向 量 的 形式 。 这 里 我 们 重点 阐述 一 下 如 何 得 到 词 级 分布 的 向 
量 表示 。 我 们 将 具有 相同 源 端 的 翻译 规则 看 作 是 一 个 “文档 集合 ”， 这样 “集合 ”内 的 每 一 
条 翻译 规则 就 是 一 个 “文档 ”。 我们 的 目标 就 是 利用 词缀 分 布 信息 将 每 个 “文档 ”分 类 到 对 
应 的 目标 短语 。 有 具体 可 以 分 为 以 下 三 步 : 


首先 ， 在 抽取 词 干 粒度 翻译 规则 的 同时 ， 保 留 相 应 的 词 级 信息 。 在 图 1 CAO 中 ， 从 维 
至 尔 语 的 原始 形式 可 以 看 到 ,相应 的 词 干 序列 构成 翻译 规则 的 源 端 , 剩 下 的 词缀 序列 及 其 计 
数 也 保留 下 来 。 


然后 ， 源 端 相同 的 规则 构成 一 个 集合 ， 在 这 个 集合 内 ， 我 们 可 以 使 用 经 典 的 TE-IDF 来 


zm 


”其 中 ，STM 表示 词 干 ，SUF 表示 后 绥 
^ term frequency - inverse document frequency, 一 种 用 于 资讯 检索 与 资讯 探勘 的 常用 加 权 技 术 
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w] 


表示 相关 词缀 的 权重 。 


最 后 ， 在 同一 个 集合 内 ， 我 们 需要 将 目标 端 也 进行 相同 的 翻译 规则 聚合 ， 这 里 我 们 采用 
基于 质心 的 分 类 算法 “来 表示 最 终 的 词缀 分 布 结果 : 


daie z EN d, 


ty 
N ien 


其 中 , N 表示 具有 相同 目标 端的 规则 数目 ，drwe 是 通过 平均 目标 端 相 同 的 词 级 分 布 得 到 。 
这 样 , 对 于 竺 翻译 的 片断 ,我 们 首先 通过 形态 分 析 获 得 其 词 干 序 列 和 词缀 分 布 (表示 为 向 量 )。 
其 中 ， 词 干 序列 用 来 检索 翻译 规则 表 以 获得 翻译 候选 。 当 源 端 词 干 序列 匹配 成 功 后 ， 我 们 再 
计算 符 翻 译 片断 和 候选 翻译 规则 的 词缀 分 布 的 相似 度 。 在 本 文中 , 相似 度 sim 通过 向 量 的 夹 
角 余 弦 来 衡量 : 


did rule 


sim(d,d,,.) = al d 


rule 


词缀 分 布 的 相似 度 得 分 将 作为 一 个 动态 特征 加 入 到 对 数 线 性 模型 (log-linear model) Bl 
中 ， 以 指导 解码 器 选择 更 合适 的 翻译 规则 。 


3.3 选取 有 效 的 词缀 


词缀 分 布 在 解码 器 选择 更 合适 的 翻译 规则 时 作用 显著 。 但 是 , 词 级 往往 都 是 通过 对 单 语 
的 形态 分 析 获 得 的 ， 这 样 得 到 的 词 级 集合 不 一 定 适合 于 机 器 翻译 。 直 觉 上 来 说 ， 如 果 同 时 考 
虑 目标 语言 端 信息 ， 使 用 双语 来 约束 词 级 的 生成 ， 可 能 会 得 到 更 适合 机 器 翻译 的 词缀 集合 。 
为 了 获得 更 有 用 的 词 级 ， 于 弃 无 用 的 词 级 (类 似 于 文本 分 类 中 的 停 用 词 表 stop list), 我 们 提 
出 了 一 种 获得 合适 词缀 集合 的 判别 式 方法 。 


给 定 词素 粒度 的 对 齐 结果 , 我 们 可 以 确定 对 当前 词 级 如 何 操作 。 如 果 当 前 词 级 和 之 前 的 
词 级 对 齐 到 同一 个 目标 词 ， 这 两 个 词缀 应 该 合并 成 一 个 词 级 〔( 称 之 为 merge); 如 果 当 前 词 
级 和 之 前 的 词缀 对 齐 到 不 同 的 目标 词 ， 则 应 该 单独 保留 ( 称 之 为 keep); 当 其 对 齐 到 空 时 ， 
则 应 该 删除 〈 称 之 为 delete)。 


: [gurupp *gilidu 
: | / 词 干 


Is Sk 


图 2. 维 妊 尔 语 -汉语 对 齐 示 例 


在 图 2 中 ， 后 级 “gha” 和 它 之 前 的 后 级 “lar” 对 齐 到 同一 个 目标 词 ， 两 者 应 该 合并 构成 一 
个 新 的 词 级 ， 后 级 “qiliduq” 和 之 前 的 词素 对 齐 到 不 同 的 目标 词 ， 应 该 保留 ， 而 “i” 对 齐 到 
空 ， 应 该 直接 删除 。 也 就 是 说 ， 在 同一 个 词 内 ， 其 组 成 词缀 都 可 以 分 为 三 类 : 合并 、 保 留 、 
删除 。 分 类 实例 可 以 直接 从 词素 粒度 的 对 齐 语 料 上 获得 。 为 了 获得 分 类 模型 ， 我 们 选择 条 件 
随机 场 (Conditional Random Field, CRF) 2 来 对 实例 进行 训练 。CRE 是 一 种 判别 式 概率 模 
型 ， 给 定 观 察 序 列 ， 可 以 计算 得 到 输出 状态 序列 的 条 件 概 率 ， 常 用 于 解决 序列 标注 问题 。 该 
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模型 不 需 隐 马 尔 可 夫 模 型 (HMMD) 苛 刻 的 独立 性 假设 2 ， 可 以 融合 任意 的 特征 。 而 且 ， 不 存 
在 最 大 焙 模 型 呈 的 标记 偏见 问题 ， 其 求解 的 是 当前 观察 序列 的 全 局 最 优 和 输出 状态 的 条 件 概 


表 2. 词 级 选择 的 特征 模板 和 实例 
特征 模板 sc A 
Ci (=-2……2) C=+I, C-1=+lar Co=+gha, C;-bólünüp, C;-qarap 
P; (i=-2,*…,2) P,=M, P1=M, Po=E, P,-S, P;-S 
CiCin(i=-2,**,1) CC ;--i-ar, C1Co=+lart+gha, CoC1=+ghaboliiniip, CıC2= bölünüp qarap 
PiPi(E=-2……1T) P2P1=MM, P.1Po=ME, P,P,-ES, P,P;-SS 


具体 而 言 , 本 实验 中 使 用 的 CRF 工具 是 开源 的 软件 CRE. R 2 是 训练 分 类 模型 使 用 
的 特征 模板 。 除 了 邻居 窗口 的 词素 特征 外 ,我 们 还 使 用 了 词素 在 词 中 的 位 置信 息 ( 词 首 、 词 
中 、 词 尾 和 单独 成 词 )。 引 入 位 置信 息 的 主要 目的 是 为 了 保留 词 的 内 部 结构 信息 。 假 定 当 前 
考虑 的 是 图 2 中 的 后 级 “gha”。 用 B. M. E, S 分 别 表示 词素 在 词 中 的 位 置信 息 : 词 的 开 
4n. 词 的 中 间 , 词 的 结尾 ， 以 及 单独 成 词 。 为 了 获得 更 好 的 分 类 效果 , 本 方法 可 以 迭代 训练 。 


4 S 


为 了 验证 提出 方法 的 效果 ， 我 们 在 三 组 语言 对 上 进行 了 翻译 实验 : 维吾尔 语 -汉语 ， 哈 
萨 克 语 -汉语 ， 柯 尔 克 和 孜 语 -汉语 。 其 中 ， 维 召 尔 语 、 哈 萨 克 语 和 柯尔克孜 语 都 是 在 我 国 西部 
地 区 使 用 较 多 的 少数 民族 语言 ， 均 属于 阿尔 泰语 系 突厥 语族 ， 形 态 变化 都 异常 丰富 。 相 关 话 
料 来 源 于 全 国 机 器 翻译 研讨 会 CChina Workshop of Machine Translation， 简 称 CWMT?) 的 翻 
译 评测 。 需 要 说 明 的 是 ， 由 于 CWMT 的 相关 评测 属于 进展 测试 (progress tests )， 我 们 得 不 
到 评测 中 所 用 测试 集合 ， 这 里 的 测试 集合 是 我 们 自己 构造 的 。 表 3 是 语 料 的 统计 信息 ， 其 中 
“*” 号 后 的 数字 表示 参考 译文 的 个 数 。 从 表 中 可 以 看 到 ， 经 过 形态 分 析 之 后 ， 三 种 形态 丰 
富 语言 的 词汇 量 都 减少 很 多 ， 绥 解 了 数据 稀疏 问题 。 


表 3， 数 据 集合 的 统计 信息 
数据 集合 | 句 对 数 


维 汉 训 练 集 | 50K 
维 汉 开发 集 | 0.7K*4 
维 汉 测 试 集 | 0.7K*1 


哈 汉 训练 集 50K 
哈 汉 开发 集 | 0.7K*4 
哈 汉 测试 集 | 0.2K*1 
柯 汉 训 练 集 | 50K 
柯 汉 开 发 集 | 0.5K*4 
柯 汉 测 试 集  0.2K*4 


对 于 语言 模型 ， 我 们 使 用 SRY 的 语言 模型 训练 工具 SRILMI9， 根 据 训练 语 料 的 目标 端 


5 http://crfpp.sourceforge.net/ 
€ http://mt.xmu.edu.cn/cwmt2011/en/index.html 
7 http://www.speech.sri.com/projects/srilm/ 
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训练 5 元 语言 模型 ，Moses ”的 短语 系统 作为 基线 系统 ， 系 统 的 特征 权重 使 用 最 小 错误 率 算 
法 来 调 参 ， 目 标 是 使 词 级 BLEU? 值 最 大 化 上 。 为 了 能 够 动态 地 将 相似 度 特 征 加 入 到 对 数 
线性 模型 中 ， 我 们 在 Moses 短语 系统 的 基础 上 重新 构筑 了 可 动态 计算 词缀 分 布 相似 度 的 解 
[D 


之 前 也 提 到 ， 对 于 绝 大 部 分 形态 丰富 语言 ， 语 料 和 工具 资源 都 相对 匮乏 ， 相 应 的 高 质量 
的 形态 分 析 工 具 很 难 获得 ; 因此 , 这 里 我 们 使 用 无 监督 形态 分 析 方 法 对 所 用 语言 进行 形态 分 
析 ， 以 更 好 地 验证 本 方法 与 具体 语言 的 无 关 的 特性 。 跟 文献 5 类 似 ， 我 们 也 采用 芬兰 赫 尔 
辛 基 大 学 开发 的 无 监督 分 析 工 具 Morfessor'?, 这 里 为 了 模拟 资源 匮乏 语言 , 我 们 没有 对 语音 
和 谐 现 象 进行 还 原 处 理 。Morfessor 是 根据 最 小 描述 长 度 Minimum Description Length, [ij 
称 MDL) 来 生成 形态 分 类 析 结 果 ， 文 献 中 将 Morfessor 生成 的 “词素 ”( 文 中 称 为 morph, 
无 监督 最 小 切 分 单位 ， 和 语言 学 意义 上 的 词素 有 差别 ) 分 为 三 类 : 前 绥 (prefix; PRE) id 
F (stem, STM) 和 后 级 (suffix，SUF)， 据 此 我 们 来 区 分 词 干 和 词 级 。 在 实验 中 ， 我 们 选 
择 训 练 语料库 中 出 现 次 数 最 多 的 前 5000 词 来 训练 Morfessor 的 切 分 模型 。 


4.1 实验 结果 与 分 析 


jun 


pum 


二 E, = AHE WeXB MEMBER mp y E f 、 Epey 
K 4 ESIREKETI x. EEKE, AEE, PREGE 


翻译 结果 。 其 中 词 Cword) 方法 是 基线 到 汉语 的 翻译 结果 


F (stem) 方法 表示 在 翻译 时 ， 词 用 对 
应 的 词 干 代替 ;词素 morph) 方法 表 
示 使 用 词素 作为 最 小 翻译 单位 。 词 绥 
(affix) 方法 对 应 本 文 提出 的 用 词 干 翻 
译 ， 用 词 级 分 布 进行 规则 选择 的 方法 ; 
CRF- 词 级 方法 Cerfaffix) 是 在 词缀 的 
据 CRF 模型 选择 了 更 有 用 词缀 后 的 结果 。 黑 体 部 分 表示 和 基线 系统 相 比 ， 实 验 结果 具有 显 
著 性 提高 。 从 表 中 可 以 看 出 ， 对 三 种 语言 ， 使 用 词 干 作 为 最 小 翻译 单位 的 效果 均 好 于 使 
用 词 和 词素 ; 而 我 们 提出 的 方法 表现 也 均 好 于 词 干 的 翻译 效果 。 


具体 来 说 ， 在 维吾尔 语 到 汉语 的 翻译 任务 中 ， 和 基线 系统 相 比 ，CRF 词 级 方法 BLEU 
直 提高 了 2.9 个 百分点 ;而 且 与 词 干 粒 度 翻 译 相 比 ， 也 有 0.9 个 百分点 的 提高 。 哈 陛 克 语 到 
汉语 的 翻译 中 ， 提 升 效 果 也 比较 明显 ， 相 对 基线 系统 和 词 干 翻译 ， 分 别 有 2.6 和 1.1 个 百 分 
点 的 BLEU 值 上 的 提高 。 些 外， 使 用 CRF 模型 选择 更 有 用 的 词缀 过 后 ， 和 不 处 理 之 前 也 有 
0.33 个 百分点 的 提高 。 柯 尔 克 和 孜 语 翻译 到 汉语 时 ， 较 前 两 组 语言 对 相 比 ， 提 升幅 度 稍 小 ， 但 
也 有 1.22 个 百分点 的 提高 。 使 用 CRF 模型 来 选择 词缀 集合 过 后 ， 在 三 种 语言 上 都 带 来 了 一 
定 的 翻译 质量 的 提高 ， 但 总 的 来 说 ， 提 高 幅度 不 是 很 大 。 一 个 可 能 的 原因 是 ， 词 级 是 合并 、 
保留 还 是 删除 ， 依 赖 于 词素 粒度 的 对 齐 ， 尤 其 是 词缀 本 身 的 对 齐 结果 ， 而 该 对 齐 效果 往往 不 
尽 如 人意 。 作 为 下 一 步 工作 , 我 们 希望 先 通过 改善 词 级 的 对 齐 效 果 ， 得 到 更 准确 的 词 级 分 类 
实例 ， 以 改善 词缀 集合 选择 的 结果 。 


通过 观察 分 析 翻 译 结果 ， 我 们 发 现 ， 和 基线 系统 相 比 ,我们 的 模型 生成 的 翻译 结果 更 流 
利 。 具 体 地 ， 改 善 效 果 主 要 体现 在 两 个 方面 : 


词 (word) 31.74.99 28.64.59 35.05.1559 
ii]-T- (stem) 33.74.50 30.14. 5 35.521947 


词素 (morph) | 32.69.99 | 2921.05; | 34.97-0.09 
词 级 (affix) | 34.34.25; | 30.19,227 | 35.96.05 
CRF 词缀 法 | 34.64.49 | 312454 | 36274. 


Ee 


3 http://www.statmt.org/moses/ 
? Bilingual Evaluation Understudy， 由 IBM 于 2002 年 提出 的 一 种 机 器 翻译 质量 自动 评测 方法 
10 http://www.cis.hut.fi/projects/morpho/ 
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e 降低 了 未 登录 词 (OOV) 的 比例 由 于 我 们 使 用 词 干 作为 原子 翻译 单位 ， 有 具有 相同 
词 干 的 词 形 都 使 用 其 词 干 来 表示 ， 从 而 很 好 地 缓解 了 数据 稀 玻 问题 。 在 表 5 f 1 

中 ， 虽 然 我 们 的 训练 语料库 中 没有 词 “qutquzishi”， 但 存在 很 多 以 “qutquz” 为 词 

干 的 词 形 。 因 此 ， 在 使 用 词 干 粒度 翻译 时 ,“qdutquzishi” 就 变 成 “qutquz”， 从 而 能 

翻译 出 来 。 可 以 看 到 ， 词 干 粒度 翻译 可 以 明显 地 降低 未 登录 词 的 比例 。 

e 选择 更 合适 的 词汇 在 表 5 的 两 个 例子 中 ， 引 入 词 级 分 布 来 消 上 下， 可 以 选择 更 合适 
的 词汇 ， 生 成 的 翻译 结果 更 符合 语法 。 例 1 中 生成 了 相 匹 配 的 量词 “名 ”， 例 21 

则 包含 了 对 应 的 介词 “向 ”。 


表 5. 维吾尔 语 到 汉语 的 翻译 结果 示例 


例 1 原文 munasiwetlik tarmaglarning pütün küchi bilen qutquzishi arqiliq , 1400 din 


artuq yoluchi qutquzwelindi . 

参考 译文 经 过 全 力 救援 成 功 解救 出 TUA 多 名 被 困 人 员 。 
i (word) JX 部 门 全 力 qutquzishi , 旅客 qutquzwélindi 

WF Cstem) | 有 关 部 门 营救 ， 1400 多 旅客 救 出 。 

后 级 (affix) | 有 关 部 门 全 力 营救 1400 多 名 乘客 救出 。 

例 2 原文 hemde qurbanlarning tughqanliridin hal soridi . 

参考 译文 并 向 烈士 亲属 表示 深切 慰问 。 

词 (word) | 并 烈士 失去 亲人 的 EN. 

iT (stem) | 并 烈士 亲属 表示 慰问 。 

后 级 (affix) | 并 向 烈士 亲属 表示 感 问 。 


4.2 词法 分 析 质 量 的 影响 


以 上 实验 均 在 无 监督 形态 分 析 结 果 上 进 ” 表 6. 无 监督 和 有 监督 词法 分 析 后 语 料 
行 ， 都 有 效 改 善 了 翻译 效果 。 更 进一步 ， 我 


们 想 验证 一 下 形态 分 析 的 质量 会 对 该 方法 产 


生 何 种 影响 。 我 们 使 用 文献 中 中 提出 的 方法 
构建 了 一 个 基于 标注 语 料 的 维吾尔 语词 法 分 
析 工 具 ， 并 测试 其 翻译 效果 。 图 3 是 和 无 监 
督 分 析 工 具 Morfessor 的 结果 对 比 。 可 以 看 
到 ， 利 用 有 监督 的 词法 分 析 工 具 获 得 词 干 、 


iT 

EE 
* piss 

词 级 后 , 除了 词素 粒度 的 结果 , 使 用 词 干 和 增加 词缀 消 歧 的 模块 的 结果 均 好 于 无 监督 分 析 后 


的 翻译 结果 , AA 0.2 到 0.38 个 百分点 的 提高 。 这 说 明 , 我 们 提出 的 方法 在 形态 分 析 质 量 改 
善 时 ， 翻 谋 效果 也 随 之 改善 。 表 6 给 出 了 两 种 形态 分 析 方 法 的 结果 在 统计 上 的 差别 。 有 监督 


的 分 析 方 法 生成 的 词素 类 型 更 少 ， 尤 其 是 词 级 ， 只 有 Morfessor 的 V10。 生 成 的 词缀 往往 更 
有 语法 意义 ， 能 更 好 地 指导 翻译 规则 的 选择 。 
4.3 语 料 规 模 的 影响 

此 外 ， 我 们 还 在 一 个 较 大 规模 的 维吾尔 语 -汉语 平行 语料库 上 进行 了 实验 ， 以 验证 我 们 
的 方法 在 相对 大 规模 语料库 上 的 有 效 性 。 我 们 将 收集 的 约 30 万 关于 政府 新 闻 的 维 汉语 料 库 
随机 划分 为 六 个 部 分 : 5 万 、10 万 、15 万 、20 万 、25 万 和 30 万 ， 来 验证 语 料 规模 的 大 小 
对 翻译 效果 的 影响 。 仍然 沿用 之 前 的 开发 集 和 测试 集 ， 并 确保 与 现 有 的 训练 集 没有 重 闭 。 
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4 是 翻译 曲线 。 可 以 看 到 ， 不 论语 料 库 规模 如 何 ， 基 于 词缀 消 上 于 的 词 干 翻译 方法 都 始终 表现 
最 好 : 在 语料库 规模 较 小 时 ， 该 方法 提高 很 明显 ; 随 着 语料库 规模 的 加 大 ， 提 升幅 度 稍微 减 
小 。 即 使 如 此 ， 在 使 用 全 部 的 30 万 的 双语 语 料 时 ， 该 方法 仍然 有 0.7 个 百分点 的 提高 。 


4A 


一 @ 一 CRF- 后 绥 
p RÓE 
-= dg 

一 人 一 词 


e --E-- 词素 
100 150 200 280 300 
fg md H X 路 训练 集 大 小 《单位 : KO 
Wiz ri Tz LE 
LL 
ac 
[9] 
图 3 无 监督 和 有 监督 词法 分 析 图 4。 不 同 语 料 规模 对 翻译 结果 的 影响 


对 翻译 结果 的 影响 


5 总结 与 展望 


本 文通 过 区 别 对 待 词 干 与 词缀, 提出 了 一 种 新 颖 的 面向 形态 丰富 语言 的 翻译 规则 选择 方 
去 。 在 整个 翻译 流程 中 ， 我 们 使 用 词 干 作 为 原子 翻译 单元 。 此 外 ， 每 条 词 干 粒 度 的 规则 都 会 
附带 一 组 相应 的 词 级 分 布 , 通过 计算 其 与 待 翻译 片段 的 词缀 分 布 的 相似 度 , 来 帮助 解码 系统 
选择 更 合适 的 翻译 规则 。 在 三 种 不 同形 态 丰 富 语言 上 的 实验 表明 , 该 方法 显著 改善 了 翻译 质 
量 ， 尤 其 是 在 双语 语 料 相对 匮乏 时 ， 效 果 提 升 很 明显 。 


本 文 研究 了 区 别 对 待 词 干 和 词缀 来 对 形态 丰富 语言 进行 翻译 的 方法 , 这 样 的 工作 尚 属 首 
次 。 该 方法 与 具体 的 语言 对 无 关 。 我 们 计划 下 一 步 在 更 多 的 形态 丰富 语言 上 来 验证 本 文 的 结 
R, 并 改善 翻译 质量 。 此 外 ,这 里 的 词 干 类 似 于 内 容 词 ,而 词缀 则 对 应 功能 词 。 按 这 种 类 比 ， 
我 们 的 方法 也 应 该 可 以 用 在 翻译 形 态 变化 不 太 丰 富 的 类 似 英语 的 语言 上 。 
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